פתרון נומרי
- בניגוד ל פתרון האנליטי שבו הפרמטרים נקבעים באמצעות פתרון מערכת משוואות שמביא את השגיאה למינימום (אופציה אפשרית רק במקרים פשוטים), בפתרון הנומרי הפרמטרים נקבעים באמצעות אופטימיזציה.
אופטימיזציה:
- מתחילים מפתרון כלשהוא (לרוב אקראי) ומשפרים אותו בהדרגה על ידי צעדים אשר מקטינים את השגיאה
- תהליך השיפור ההדרגתי נקרא תהליך למידה
- גישה אחת לתהליך למידה שימצא מינימום לשגיאה נקראת ירידה במורד הגרדיאנט
ירידה במורד הגרדינט:
- ירידה במורד הגרדינט מבטיחה מציאת מינימום מקומי בלבד
- ישנם 3 סוגים עיקריים של למידה איטרטיבית (צעדים) אשר משתמשים בירידה במורד הגרדינט:
- למידת אצווה (batch): לפני כל צעד למידה, מזינים לרשת את כל הדוגמאות. צעד הלמידה מבוסס על שגיאת הניבוי של כל הדוגמאות
- למידה מקוונת (online): מבצעים צעד למידה עם כל דוגמה. אין גישה לדוגמאות מהעבר (דומה יותר ללמידה טבעית)
- למידת mini batch: מחלקים לקבוצות של דוגמאות ומבצעים צעד למידה עם כל קבוצה
קצב הלמידה:
- הפרמטר אטא (
) מייצג את קצב הלמידה - גודל קצב הלמידה מהותי לחישוב השגיאה, כאשר קצב הלמידה נמוך מדי, השגיאה יורדת לאט, וכאשר קצב הלמידה גבוה מדי, השגיאה יכולה להעשות תנודתית ואפילו להתבדר
- כדי להתמודד עם הבעיה, ניתן לשנות את קצב הלמידה עם הזמן: להתחיל מקצב למידה גדול כדי למצוא את האזורים העמוקים יותר בפונקציית השגיאה, ובמהלך הלמידה להתייצב באחת מנקודת המינימום המקומיות
כלל הלמידה בשיטת ירידה במורד הגרדינט:
דוגמא לתרגיל:
- רשת נוירונים לינארית בעלת שני נוירוני קלט, נוירון bias ונוירון פלט יחיד לומדת באמצעות למידת אונליין מפוקחת. וקטור המשקולות ההתחלתי הוא
וקצב הלמידה הוא 0.1. - הדוגמא הראשונה שמוצגת לרשת היא
- חשב את וקטור הקשרים לאחר הצגת הדוגמא הראשונה:
- ניתן לראות שאת נוירון bias הוספנו כפרמטר נוסף לדוגמא, וכך גם למשקולות. לו היה הערך של ה bias שונה מאחד (לדוגמא 5), את הפרמטר הנוסף בדוגמא היינו מגדירים כ-1 ואת הפרמטר הנוסף במשקולות היינו מגדירים כ-5.